变压器的令人印象深刻的性能归因于自我注意力,在每个位置都考虑了整个输入之间的依赖性。在这项工作中,我们改革了神经$ n $ gram模型,该模型仅着眼于每个位置的几个周围表示,其多头机制如Vaswani等人(2017年)。通过对序列到序列任务的实验,我们表明,用多头神经$ n $ gram在变压器中替换自我注意力可以比变压器实现可比性或更好的性能。从对我们提出的方法的各种分析中,我们发现多头神经$ n $ gram是互补的,它们的组合可以进一步提高香草变压器的性能。
translated by 谷歌翻译
我们研究了掩盖语言模型(MLMS)的任务无关内在和特定于任务的外在社会偏见评估措施之间的关系,并发现这两种评估措施之间仅存在弱相关性。此外,我们发现在下游任务进行微调期间,使用不同方法的MLMS DEBIAS进行了重新划分。我们确定两个培训实例中的社会偏见及其分配的标签是内在偏见评估测量值之间差异的原因。总体而言,我们的发现突出了现有的MLM偏见评估措施的局限性,并提出了使用这些措施在下游应用程序中部署MLM的担忧。
translated by 谷歌翻译
This study targets the mixed-integer black-box optimization (MI-BBO) problem where continuous and integer variables should be optimized simultaneously. The CMA-ES, our focus in this study, is a population-based stochastic search method that samples solution candidates from a multivariate Gaussian distribution (MGD), which shows excellent performance in continuous BBO. The parameters of MGD, mean and (co)variance, are updated based on the evaluation value of candidate solutions in the CMA-ES. If the CMA-ES is applied to the MI-BBO with straightforward discretization, however, the variance corresponding to the integer variables becomes much smaller than the granularity of the discretization before reaching the optimal solution, which leads to the stagnation of the optimization. In particular, when binary variables are included in the problem, this stagnation more likely occurs because the granularity of the discretization becomes wider, and the existing modification to the CMA-ES does not address this stagnation. To overcome these limitations, we propose a simple extension of the CMA-ES based on lower-bounding the marginal probabilities associated with the generation of integer variables in the MGD. The numerical experiments on the MI-BBO benchmark problems demonstrate the efficiency and robustness of the proposed method. Furthermore, in order to demonstrate the generality of the idea of the proposed method, in addition to the single-objective optimization case, we incorporate it into multi-objective CMA-ES and verify its performance on bi-objective mixed-integer benchmark problems.
translated by 谷歌翻译
我们通过雷达来解决对象跟踪以及处理异常值的当前最新方法的鲁棒性。标准跟踪算法从雷达图像空间中提取检测到在过滤阶段使用它。过滤由卡尔曼过滤器进行,该滤波器假设高斯分布式噪声。但是,此假设并不能说明大型建模错误,并导致突然动作期间的跟踪性能差。我们将高斯总和过滤器(多假设跟踪器的单对象变体)作为基线,并通过与比高斯更重的分布建模工艺噪声来提出修改。变分贝叶斯提供了一种快速,计算上便宜的推理算法。我们的模拟表明,在存在过程离群值的情况下,稳健的跟踪器在跟踪单个对象时优于高斯总和过滤器。
translated by 谷歌翻译
我们在随机多臂匪徒问题中使用固定预算和上下文(协变)信息研究最佳武器识别。在观察上下文信息之后,在每一轮中,我们使用过去的观察和当前上下文选择一个治疗臂。我们的目标是确定最好的治疗组,这是一个在上下文分布中被边缘化的最大预期奖励的治疗组,而错误识别的可能性最小。首先,我们为此问题得出半参数的下限,在这里我们将最佳和次优的治疗臂的预期奖励之间的差距视为感兴趣的参数,以及所有其他参数,例如在上下文中的预期奖励,作为滋扰参数。然后,我们开发“上下文RS-AIPW策略”,该策略由随机采样(RS)规则组成,跟踪目标分配比和使用增强反向概率加权(AIPW)估算器的建议规则。我们提出的上下文RS-AIPW策略是最佳的,因为错误识别概率的上限与预算到Infinity时的半参数下限相匹配,并且差距趋于零。
translated by 谷歌翻译
一个由许多移动计算实体组成的自动移动机器人系统(称为机器人)吸引了研究人员的广泛关注,并阐明机器人的能力与问题的可溶性之间的关系是近几十年来的新兴问题。通常,只要没有任何机器人的数量,每个机器人都可以观察所有其他机器人。在本文中,我们提供了关于机器人观察的新观点。机器人不一定要观察所有其他机器人,而不管距离距离如何。我们称此新的计算模型瑕疵视图模型。在该模型下,在本文中,我们考虑了需要所有机器人在同一时刻收集的收集问题,并提出了两种算法来解决对抗性($ n $,$ n-2 $)中的收集问题 - 违法模型对于$ n \ geq 5 $(每个机器人最多观察$ n-2 $机器人在对手身上选择)和基于距离的(4,2)的模型(每个机器人在最接近的机器人最接近的机器人中分别观察到)分别,其中$ n $是机器人的数量。此外,我们提出了一个不可能的结果,表明在对抗性或基于距离(3,1)的模型中没有(确定性的)收集算法。此外,我们在放松的($ n $,$ n-2 $)中的聚会中表现出了不可能的结果。
translated by 谷歌翻译
城市河流提供了影响住宅生活的水环境。河流表面监测对于决定在哪里确定清洁工作以及何时自动开始清洁处理至关重要。我们专注于有机泥浆或“浮渣”,该泥浆积聚在河流的表面上,并给予其特殊的气味和对景观的外部经济影响。由于其具有稀疏分布和不稳定的有机形状模式的特征,因此很难自动进行监测。我们建议使用混合图像增强物进行斑块分类管道,以检测河流表面上的浮渣特征,以增加漂浮在河流上的浮渣与附近建筑物,例如建筑物,桥梁,杆子和障碍物(如建筑物,桥梁和障碍物)所反映的河流背景的多样性。此外,我们建议在河流上覆盖的浮渣索引,以帮助在线监视较差的等级,收集浮渣并决定化学处理政策。最后,我们展示了如何在每十分钟的时间序列数据集中使用框架的时间序列数据集录制河流浮渣事件。我们讨论管道的价值及其实验发现。
translated by 谷歌翻译
多模式学习是建立模型的框架,这些模型可以根据不同类型的方式进行预测。多模式学习中的重要挑战是通过这些表示从任意模式和跨模式产生的共同表示形式推断;但是,实现这一目标需要考虑多模式数据的异质性质。近年来,深层生成模型,即通过深层神经网络参数化的生成模型引起了很多关注,尤其是变异自动编码器,这些自动编码器适合于实现上述挑战,因为它们可以考虑异质性并推断出数据的良好表示。。因此,近年来已经提出了基于变异自动编码器的各种多模式生成模型,称为多模式深生成模型。在本文中,我们提供了对多模式深生成模型研究的分类调查。
translated by 谷歌翻译
我们介绍了时间多模式的多模式学习,这是一个新的决策模型系列,可以间接学习和传输在线信息,同时观察一个概率分布,该概率分布有一个以上的峰值或一个以上的结果变量,从一个时间阶段到另一个时间阶段。我们通过基于数据生理学驱动的相关性依次删除不同变量和时间之间的其他不确定性来近似后部,以解决不确定性下的更广泛的挑战性时间依赖性决策问题。对现实世界数据集的广泛实验(即,城市交通数据和飓风整体预测数据)证明了拟议的有针对性决策的卓越性能,而不是各种设置的最先进的基线预测方法。
translated by 谷歌翻译
完全无监督的3D表示学习因其在数据收集方面的优势而引起了人们的关注。一种成功的方法涉及一种观点感知方法,该方法基于生成模型(例如生成对抗网络(GAN))学习图像分布,同时基于3D感知模型(例如,神经辐射场(NERFS))生成各种视图图像。但是,他们需要具有各种视图的图像进行培训,因此,它们在很少或有限的观点的数据集中应用仍然是一个挑战。作为一种补充方法,提出了采用散焦提示的孔渲染gan(AR-GAN)。但是,AR-GAN是基于CNN的模型,尽管其高相关性,但它独立于观点变化代表散焦,这是其性能的原因之一。作为AR-GAN的替代方案,我们提出了一个光圈渲染的NERF(AR-NERF),该启示可以通过在常见的射线追踪框架中代表这两个因素来以统一的方式利用观点和Defocus提示。此外,要以分散的方式学习散热性和独立的表示,我们提出了孔径随机训练,为此我们学会生成图像,同时独立地将光圈大小和潜在代码随机。在实验过程中,我们将AR-NERF应用于各种自然图像数据集,包括花,鸟和面部图像,其结果证明了AR-NERF对深度和散焦效应的无监督学习的实用性。
translated by 谷歌翻译